Lập trình các bộ xử lý song song quy mô lớn: Cách tiếp cận thực hành: Mô hình thực thi CUDA: Host so với Device

Mô hình thực thi CUDA biến máy tính của bạn thành một hệ thống đồng nhất hiệu suất cao. Hãy tưởng tượng một Đạo diễn lớn (Host/CPU) và một Đội quân hàng nghìn (Device/GPU). Đạo diễn xử lý các logic phức tạp và ra quyết định, trong khi đội quân thực hiện các tác vụ khổng lồ và lặp lại cùng lúc.

1. Sự chia tách kiến trúc

Thiết bị Host là một bộ vi xử lý tối ưu hóa độ trễ, được thiết kế cho luồng điều khiển phức tạp và các tác vụ tuần tự. Ngược lại, thiết bị Device là một GPU tối ưu hóa băng thông, chứa hàng ngàn nhân đơn giản được thiết kế để thực thi cùng một lệnh trên dữ liệu quy mô lớn cùng lúc.

2. Nhịp điệu thực thi

Chương trình CUDA hoạt động như một chuỗi các giai đoạn. Thực thi bắt đầu trên Host cho "mã tuần tự." Khi chương trình gặp "Kernel song song," nó khởi chạy một Mạng lưới các luồng lên thiết bị Device. Kiểm soát quay trở lại Host sau khi thiết bị hoàn thành khối lượng công việc khổng lồ của mình.

3. Chuyên biệt hóa hiệu suất

Mô hình tận dụng thế mạnh của cả hai: CPU quản lý tài nguyên hệ thống và nhánh phức tạp, trong khi GPU thực thi SPMD (Chương trình duy nhất, Dữ liệu đa dạng) logic để xử lý các phần tử dữ liệu song song.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

Which architecture is characterized as being 'throughput-optimized'?

The Host (Intel® CPU)

The Device (NVIDIA® GPU)

The System RAM

The PCIe Bus

QUESTION 2

The reader should complete Part 1 of the MatrixMultiplication() example in Figure 3.6 with similar declarations of an Nd and a Pd pointer variable as well as their corresponding cudaMalloc() calls. Furthermore, Part 3 in Figure 3.6 can be completed with mandatory calls.

float *Nd, *Pd; cudaMalloc((void**)&Nd, size); ... cudaFree(Nd);

float Nd, Pd; malloc(&Nd, size); ... free(Nd);

float *Nd, *Pd; cudaMemcpy(Nd, Pd, size); ... delete Nd;

int Nd, Pd; Nd = new float[size]; ... free(Nd);

QUESTION 3

In the CUDA execution model, where does a program always begin its execution?

On the Device (GPU)

Simultaneously on both

On the Host (CPU)

In the Global Memory

QUESTION 4

What happens when the Host encounters a phase with rich data parallelism?

It speeds up its clock frequency.

It launches a Kernel onto the Device.

It stores the data in the Host Cache.

It converts the code to Python.

QUESTION 5

A student attempts to launch a 1024x1024 matrix multiplication on G80 hardware using 1024 blocks, where each thread calculates one element. Why will this fail?

The G80 cannot handle 1024 blocks.

The total number of threads exceeds 1 million.

The configuration results in 1024 threads per block, exceeding the 512 hardware limit.

Matrix multiplication is not data parallel.